查看原文
其他

数据集 | 07-21年上市公司「委托贷款公告」

大邓 大邓和他的Python
2024-09-09



一、数据集概况

- 数据来源:沪深A股非金融类上市公司披露的委托贷款公告
- 时间跨度:2007—2022年
- 所需指标
  - 贷款提供方和接收方名称
  - 借贷双方股权关联关系
  - 委托贷款金额
  - 利率
  - 贷款期限等借贷条款信息

数据集不大,只有2297条记录。

import os

os.listdir()

Run

['raw_data',
'委托贷款.csv',
'img',
'委托贷款(含有hash_id,跟pdf文件名一致).csv',
'委托贷款.ipynb',
'数据说明.txt']



二、导入数据

  1. 委托贷款.csv
  2. 委托贷款(含有hash_id,跟pdf文件名一致).csv 比1多了hash_id

两个csv均整理自raw_data, 把很多pdf汇总到csv中。这两个csv数据差异不大,这里只读取 「委托贷款(含有hash_id,跟pdf文件名一致).csv」。

import pandas as pd

df = pd.read_csv('委托贷款(含有hash_id,跟pdf文件名一致).csv')
df.head()


#记录数
len(df)

Run

2297

#不同「公告分类」的记录数
pd.DataFrame(df['公告分类'].value_counts())


#「公告年份」的记录数
pd.DataFrame(df['公告年份'].value_counts().sort_index())


#公告的文本长度
df['公告内容'].str.len()

Run

    0        466.0
    1       1026.0
    2       2938.0
    3       3035.0
    4        921.0
             ...  
    2292     456.0
    2293    1116.0
    2294     477.0
    2295    1900.0
    2296    2950.0
    Name: 公告内容, Length: 2297, dtype: float64



四、数据集获取

链接: https://pan.baidu.com/s/1py-yNLirCbxBPqeJ-LN9dA 提取码: rz3d 


精选内容

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

管理世界 | 政府与市场心理因素的经济影响及其测度

叙事经济学:揭示经济中的叙事

中文心理词典,含具体性、可成象性等指标

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

Nature | 通用中英文六维语义情感词典

采购合同数据集 | 政府采购何以牵动企业创新

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 「问询函」

网络爬虫 | 使用Python采集B站弹幕和评论数据

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存